# This Page Is Inserted by IFW Operations and is not a part of the Official Record

# **BEST AVAILABLE IMAGES**

Defective images within this document are accurate representations of the original documents submitted by the applicant.

Defects in the images may include (but are not limited to):

- BLACK BORDERS
- TEXT CUT OFF AT TOP, BOTTOM OR SIDES
- FADED TEXT
- ILLEGIBLE TEXT
- SKEWED/SLANTED IMAGES
- COLORED PHOTOS
- BLACK OR VERY BLACK AND WHITE DARK PHOTOS
- GRAY SCALE DOCUMENTS

# IMAGES ARE BEST AVAILABLE COPY.

As rescanning documents will not correct images, Please do not report the images to the Image Problem Mailbox.

# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

06-309285

(43)Date of publication of application: 04.11.1994

(51)Int.CI.

G06F 15/16 G06F 13/00

(21)Application number: 05-099901

(71)Applicant :

**FUJITSU LTD** 

(22)Date of filing:

27.04.1993

(72)Inventor:

**ICHIKAWA SHINICHI** 

# (54) COMMUNICATION PROCESSING CIRCUIT FOR PARALLEL COMPUTER

#### (57)Abstract:

PURPOSE: To reduce the overhead of a processor element accompanied with an inter-processor element communication processing by providing a specific communication processing part, and selectively executing a prescribed communication processing independently of an operation at a calculation processing part. CONSTITUTION: This circuit is constituted of a calculation processing part 10 and a communication processing part 11. Then, the communication processing part 11 is equipped with registers 110–113 which store logic address (1) of a processor element 1, number (2) of entire processors, logical data (5) and (6), and communication data (3) communicated from a communication network 3, buffers 116–117, each kind of arithmetic unit 114 and 115, control sequencer 118 which operates communication control, and communication network interface 119, as a hardware mechanism used exclusively for a global processing. Then, after the circuit is activated by a software instruction executed by the calculation processing part 10, the global communication processing is executed by the hardware mechanism independently of the calculation processing part 10.



#### **LEGAL STATUS**

[Date of request for examination]

24.04.2000

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

Copyright (C); 1998,2000 Japanese Patent Office

(19)日本国特許庁 (JP)

# (12) 公開特許公報(A)

FΙ

(11)特許出願公開番号

### 特開平6-309285

(43)公開日 平成6年(1994)11月4日

(51)Int.Cl.5

識別配号 庁内整理番号

\_\_\_\_

G 0 6 F 15/16

3 9 0 Z 9190-5L

技術表示箇所

13/00 3 5 3

3 5 3 C 7368-5B

#### 審査請求 未請求 請求項の数2 OL (全 8 頁)

(21)出願番号

特願平5-99901

(22)出顧日

平成5年(1993)4月27日

(71)出願人 000005223

富士通株式会社

神奈川県川崎市中原区上小田中1015番地

(72)発明者 市川 眞一

神奈川県川崎市中原区上小田中1015番地

富士通株式会社内

(74)代理人 弁理士 井桁 貞一

#### (54) 【発明の名称 】 並列計算機における通信処理回路

#### (57)【要約】

【目的】 本発明は、並列計算機における通信処理回路 に関し、プロセッサエレメント間の通信処理に伴うプロセッサエレメントでのオーバヘッドを削減する。

【構成】 プロセッサエレメント内に、計算処理部とは別に、プロセッサエレメントの論理アドレスのと、全プロセッサエレメントの数のと、通信データのとを格納するレジスタ、バッファと、各種の演算器と、通信制御を行うコントロールシーケンサとからなる通信処理部を設け、計算処理部で実行されるソフトウェアからの指示で、上記レジスタにプロセッサエレメントの論理アドレスの、プロセッサエレメントの数のを設定した後、該設定された論理アドレスのと、プロセッサエレメントの数のを設定した後、該設定された論理アドレスのと、プロセッサエレメントの数のを設定した後、該設定された論理アドレスのと、プロセッサエレメントの数のを設定した後、該設定された論理アドレスのと、プロセッサエレメントの数のを設定しているコントロールシーケンサのシーケンス番号のとで定まるバイナリーツリー方法による大域的な通信処理(データの送信、データ受信、演算、又は、演算結果の送信)を、計算処理部での動作とは独立に実行するように構成する。

#### 本発明の一実施例を模式的に示した図



#### 【特許請求の範囲】

【請求項1】分散型メモリ(12)を備えた複数個のプロセッサエレメント(1)が、通信ネットワーク(3)を介して接続されている並列計算機におけるプロセッサエレメント(1)での通信処理回路であって、

1

各プロセッサエレメント(1) 内に、計算処理部(10)とは別に、プロセッサエレメントの論理アドレス(①)と、 全プロセッサエレメントの数(②)と、計算処理部(10)からのローカルデータ(⑤,⑥)と、通信ネットワーク(3)から受信した通信データ(③)とを格納するレジス 10タ(110,111,112,120,113),バッファ(116,117)と、各種の演算器(114,115)と、通信制御を行うコントロールシーケンサ(118)と、通信ネットワークインタフェーサ(119)とからなる通信処理部(11)を設け、

計算処理部(10)で実行されるソフトウェアからの指示で、上記レジスタ(110,111) にプロセッサエレメントの論理アドレス(①)、プロセッサエレメントの数(②)を設定した後、該設定された論理アドレス(①)と、プロセッサエレメント数(②)と、第何回目の通信であるかを指示しているコントロールシーケンサ(118)のシー 20ケンス番号(④)とで定まる通信処理(データの送信、又は、データ受信、演算、又は、演算結果の送信)を、選択的に、上記計算処理部(10)での動作とは独立に実行することを特徴とする並列計算機における通信処理同路。

【請求項2】上記通信処理として、バイナリーツリー手順により、大域的な演算を行うことを特徴とする請求項1 に記載の並列計算機における通信処理回路。

#### 【発明の詳細な説明】

[0001]

【産業上の利用分野】本発明は、分散型メモリを備えた 並列計算機における通信処理方法に関し、特に、並列計 算機を構成している複数個の全プロセッサエレメント(P E1, ~)上でのデータを参照して行う大域的な処理を行 う際の通信処理回路に関する。

【0002】あらゆる工業分野、技術開発分野で設計を行う際には、偏微分方程式を解いたり、構造を解析したりして、実験によらずに数値シミュレーションにより、製品の特性、性能を予測することが重要となってきている。しかも、この数値シミュレーションには、年々より高速のコンピュータが必要となってきており、中央処理装置(CPU)を数多く連ねた並列コンピュータは、計算能力に対する増大する要求に答える手段として、その利用が検討されはじめている。

【0003】分散メモリ型並列計算機上で、このような数値シミュレーションの並列処理を行う時には、ホストからデータ用の配列を、各プロセッサエレメント(FE1,PE2,~) に分割配置してデータの更新を行う。

【 0 0 0 4 】 このような並列処理で必要な通信処理は、 物値エデルトで担互作用の及び範囲のデータを持つプロ セッサエレメント(PE1,PE2, ~) から参照すべきデータのコピーを受け取る局部的な処理と、全プロセッサエレメント(PE1,PE2, ~) 上のデータを参照して演算を行う、大域的な処理とがある。

【0005】このような、大域的な処理においては、プロセッサエレメント(PE1,PE2,~)の数が多くなると、処理時間も大きくなるが、該処理時間に含まれる通信処理時間も無視できなくなること、又、該大域的な処理においては、他のプロセッサエレメントからデータをもらって、所定の演算をした後、別のプロセッサエレメントに送信するといった処理であるにも関わらず、データを受信する毎に、該プロセッサエレメント内のソフトウェア(即ち、アプリケーションが擾乱され、該並列計算機全体としての処理能力が低下することから、上記プロセッサエレメント内で実行されているアプリケーション等に対する影響の少ない通信処理回路が要求される。

[0006]

【従来の技術】図3は、並列計算機での従来の通信処理 方法を説明する図であり、図3(a)はメモリ分散型並列 計算機の構成例を示し、図3(b)は、プロセッサエレメ ント間で送受信されるデータのフオーマット例を示して いる。

【0007】先ず、図3(b) に示したデータフオーマットにおいて、先頭のヘッダ部は、通信先のプロセッサエレメント(PE1, ~) 1 のアドレス(SA)と、該通信先のプロセッサエレメント(PE1, ~) 1 に対する割り込み(INT) の有無と、データのクラス(アプリケーションが優先して処理する必要のあるデータか否かを識別するクラス)等の制御情報で構成されている。

【0008】送信側のプロセッサエレメント(PEn) 1のアプリケーション、例えば、通信ライブラリが、プロセッサエレメント(PE1) 1 にデータの送信を行う場合、所定のデータを、主記憶装置 12 上に用意した後、所定の条件を指示して、通信処理部11 内の、例えば、ダイレクトメモリアクセス機構(DMA) 110 を起動する。

【0009】該ダイレクトメモリアクセス機構(DMA) 11 0 は、指示された条件の元で、プロセッサエレメント(PEn) 1 の主記憶装置 12 の所定のアドレスから、所定の40 データ長のデータを読み取り、通信ネットワーク 3を介して、プロセッサエレメント(PE1) 1 にデータを転送する。

【0010】プロセッサエレメント(PE1) 1 の通信処理 部 11 では、送信されてきた通信データ のヘッダ部を 参照して、自己のプロセッサエレメント(PE1) 1 に対する送信データであって、且つ、割り込みフラグ(INT) が "1"になっていると、本体部 (計算処理部) 10で実行されているオペレーションシステム(OS)に割り込みを発生する。

数値モデル上で相互作用の及ぶ範囲のデータを持つプロ 50 【0011】本体部 10 で実行されるオペレーションシ

ステム(OS)では、上記割り込みを受け付けると、通信データのの、上記へッダ部を取り込み、通信先のチェックをした後、データ長等を参照して、ダイレクトメモリアクセス機構(DMA) 110 を起動する。

【0012】起動されたダイレクトメモリアクセス機構 (DMA) 110 では、指示されたデータ転送条件の元で、通信ネットワーク 3から通信データ(3)のデータ部を読み取り、主記憶装置 12 に転送する。

【0013】 このように、従来の通信処理では、所定のプロセッサエレメント (PEi) 1 からのデータ転送がある 10 毎に、通信先のプロセッサエレメント (PEi) 1 の本体部 10で実行されているオペレーションシステム (OS) に割り込まれ、少なくとも、ヘッダ部を読み取る為に、通信データ ②を通信処理部 11 から本体部 10 まで転送する動作が実行される。

#### [0014]

【発明が解決しようとする課題】従って、現在の並列計 算機では、主記憶装置 12 に対するメモリアクセスに比べて、通信処理のスループットが格段に遅いため、並列 処理の効果を得るためには、出来るだけ通信処理、及 び、通信に関連する処理の時間を短くする工夫が必要である。

【0015】前記数値シミュレーションを並列処理する際に必要な、通信を要する大域的処理の例は、次のようなものである。

- a)最大最小值探索(大小比較)
- b) 大域的論理演算(論理和, 排他的論理和等)
- c)総和計算(浮動少数点、整数の加算)
- d) 処理要素に分割された全てのデータの共有(合同) これらの複合的な通信処理を、従来の計算処理部 10 と 30 通信処理部 11 とから成り立つプロセッサエレメント(P Ei) 1 で、上記の如きメッセージパッシング (メッセージ受け渡し) 機構、例えば、ダイレクトメモリアクセス 機構(DMA) 110,割り込み機構等により行う際には、通信 そのものよりも、通信を起動するソフトウェアや、通信 データ(3)、例えば、ヘッダ部、の受け取り、送出に関わるプロセッサエレメント(PEi) 1 内の処理に時間を多く 費やされる。

【0016】上記の如き、大域的処理では、受け取ったデータに一つの演算を施した後、直ちに、再び、通信ネットワーク 3へ送出する決まった処理であるにもかかわらず、メッセージパッシング(データの受け渡し)による一般的な通信機構を用いることは、通信ソフトウェア(上記通信ライブラリ)内の通信先チェックなどの処理の重複や、本体部 10 と通信処理部 11 との間のデータの移動などのオーバーヘッドを被りやすい。しかも、これらの大域的処理で、最も有効な、バイナリツリーアルゴリズム(後述の図2参照)では、演算処理が必要なのは、全てのプロセッサエレメントできる。このなめ、これをのプロセッサエレメントできる。このなめ、これをのプロセッサエレメントできる。このなめ、これをのプロセッサエレメントできる。このなめ、これを

処理を頻繁に行う数値シミュレーションでは、演算処理 を行わない他のプロセッサエレメント(PEj) に待ちが生 じて稼動率が下がり、並列処理の効果が出にくい。

【0017】本発明は上記従来の欠点に鑑み、並列計算機で行われる数値シミュレーション等の並列処理に必要であるが、数値シミュレーションの並列処理効果を下げる、複合通信処理を、高速に行うことができる通信処理の方法を提供することを目的とするものである。

#### [0018]

【課題を解決するための手段】図1は、本発明の一実施例を模式的に示した図であり、図2はバイナリーツリーによる大域的処理を説明する図である。上記の問題点は下記の如くに構成した並列計算機における通信処理方法によって解決される。

【0019】(1) 分散型メモリ (主記憶装置) 12を備え た複数個のプロセッサエレメント 1が、通信ネットワー ク 3を介して接続されている並列計算機におけるプロセ ッサエレメント 1での通信処理回路であって、各プロセ ッサエレメント 1内に、計算処理部 10 とは別に、プロ セッサエレメントの論理アドレスのと、全プロセッサエ レメントの数②と、計算処理部 10 からゆローカルデー タ5,6と,通信ネットワーク 3から受信した通信デー タ3とを格納するレジスタ 110,111,112,120,113, バッ ファ 116,117と、各種の演算器114,115と、通信制御を 行うコントロールシーケンサ 118と、通信ネットワーク インタフェーサ 119とからなる通信処理部 11 を設け、 計算処理部 10 で実行されるソフトウェアからの指示 で、上記レジスタ 110,111にプロセッサエレメントの論 理アドレス①、プロセッサエレメントの数②を設定した 後、該設定された論理アドレス●と、プロセッサエレメ ント数②と、第何回目の通信であるかを指示しているコ ントロールシーケンサ 118のシーケンス番号 ②とで定ま る通信処理(データの送信、又は、データ受信、演算、 又は、演算結果の送信)を、選択的に、上記計算処理部 10 での動作とは独立に実行するように構成する。 【0020】(2) 上記通信処理として、バイナリーツリ ー手順により、大域的な演算を行うように構成する。 [0021]

【作用】前述のように、分散メモリ型並列計算機で、例えば、数値シミュレーションを並列処理する際に必要な、プロセッサエレメント(PEi) 間の通信を必要とする大域的な処理の例として、 a) 最大最小値探索(大小比較)、 b) 大域的論理演算(論理和, 排他的論理和等)

、c) 総和計算(浮動少数点、整数の加算)、 d)データ列の合同 (繋ぎ合わせ)等があるが、この大域的処理で最も有効な通信手段として、図2に示したバイナリーツリーアルゴリズムが知られている。

4

イナリーツリーの構成が決められ、図2の構成例では、例えば、奇数番号のプロセッサエレメント (PE1, PE3, PE 5, ~) 1 では、通信ネットワーク 3から通信データ ②を受信して、予め、定められている演算処理 (OPRで示す) を実行するか、更に、実行した演算結果を、1つ、又は、2つ、又は、4つ若番のプロセッサエレメント (P Ej) 1 に転送するかに定形化されており、どの通信処理を行うかは、上記バイナリーツリーの第何番目の通信であるかによって決まっている。

【0023】例えば、プロセッサエレメント(PE1) 1 は、データを受信して、所定の演算を繰り返すのみであるが、プロセッサエレメント(PE3,PE7,~) 1 では、第1回目の通信処理で、演算処理を行い、演算結果を他のプロセッサエレメント(PE5,~) 1 では、第1回目の通信処理では、第1回目の通信処理では、演算した結果を他のプロセッサエレメント(PE1) 1 に送信するといったように、プロセッサエレメント(PE1) 1 に送信するといったように、プロセッサエレメント(PE1) のプロセッサエレメントアドレス (番号) ②と、第何回目の通信処理(これは、コントロールシーケンサ番 20号②で決まる)であるかにより、通信処理の内容が定形化されている。

【0024】又、偶数番号のプロセッサエレメント(PE2,PE4, ~) 1 では、自己の持っているデータ (即ち、ホストから配分されているデータ、ローカルデータ) ⑤ を他のプロセッサエレメント(PE1,PE3, ~) 1 に送信するのみである。

【0025】本発明は、この点に着目して、各プロセッ サエレメント 1内に、本体部である計算処理部 10 とは 別に、プロセッサエレメントの論理アドレスのと、全プ ロセッサエレメントの数②と、自己の持っているローカ ルデータ5,6と、通信ネットワーク 3から受信した通 信データ3とを格納するレジスタ 110,111,112,120,11 3, バッファ 116,117と、各種の演算器 114,115と、通 信制御を行うコントロールシーケンサ 118と、通信ネッ トワークインタフェーサ(119) とからなる通信処理部 1 1 を設け、該計算処理部 10 で実行されるソフトウェア からの指示で、上記レジスタ 110.111にプロセッサエレ メントの論理アドレスΦ、プロセッサエレメントの数❷ を設定した後、該設定された論理アドレスのと、プロセ 40 ッサエレメント数②と、第何回目の通信であるかを指示 しているコントロールシーケンサ 118のシーケンス番号 **④とで定まる通信処理(データの送信、又は、データ受** 信,演算,又は、演算結果の送信)を、選択的に、上記 計算処理部 10 での動作とは独立に実行するように構成 したものである。

【0026】従って、従来のように、汎用的なメッセーフェーサ 119を設け、計算処理部 10 で実行されるソフジパッシング(メッセージの受け渡し)の通信ソフトウトウェア命令により起動された後は、全てハードウェアェアを多数回実行することによるオーバヘッドを少なくにより、計算処理部 10 とは独立に、大域的な通信処理でき、又、定形的な処理となるバイナリーツリーアルゴ 50 が、以下に説明するハードウェア機構1,2で実行され

リズムを、簡単なハードウェア機構で実行することにより、プロセッサエレメント (PEi) の本体部である計算処理部でのメモリアクセス,入出力処理と競合することなく、演算処理を実行でき、又、通信ネットワークの通信データのを、各プロセッサエレメント (PEi) の計算処理部へ移動させずに済む為、通信処理を高速化できる。この結果、複合通信処理の時間を短縮することができ、全プロセッサエレメント (PEi) の稼働率を向上させることができる効果が得られる。

#### [0027]

【実施例】以下本発明の実施例を図面によって詳述する。前述の図1は、本発明の一実施例を模式的に示した図であり、図2は、バイナリーツリーによる大域的処理を説明する図である。

【0028】本発明においては、各プロセッサエレメン ト 1内に、本体部である計算処理部10 とは別に、プロ セッサエレメントの論理アドレスのと、全プロセッサエ レメントの数②と、ローカルデータ5,6と、通信ネッ トワークから受信した通信データのとを格納するレジス タ 110,111,112,120,113, バッファ 116,117と、各種の 演算器 114,115と、通信制御を行うコントロールシーケ ンサ 118と、通信ネットワークインタフェーサ(119) と からなる通信処理部 11 を設け、該計算処理部10 で実 行されるソフトウェアからの指示で、上記レジスタ 11 0,111にプロセッサエレメントの論理アドレス①、プロ セッサエレメントの数②を設定した後、該設定された論 理アドレスのと、プロセッサエレメント数のと、第何回 目の通信であるかを指示しているコントロールシーケン サ 118のシーケンス番号のとで定まる通信処理 (データ の送信、又は、データ受信、演算、又は、演算結果の送 信) を、選択的に、上記計算処理部 10 での動作とは独 立に実行する手段が、本発明を実施するのに必要な手段 である。尚、全図を通して同じ符号は同じ対象物を示し ている。

【0029】以下、図1、図2によって、本発明の分散メモリ型並列計算機における通信処理回路の構成と動作を説明する。分散メモリ型並列計算機のプロセッサエレメント(PE1,PE2,~)1は、図1に示されているように、計算処理部10と通信処理部11とから成り、通信処理部11に、大域的処理を行う専用のハードウェア機構として、プロセッサエレメントの論理アドレスのと、全プロセッサエレメントの数のと、ローカルデータのと、金でロセッサエレメントの数のと、ローカルデータのとを格納するレジスタ110,111,112,120,113、バッファ116,117と、各種の演算器114,115と、通信制御を行うコントロールシーケンサ118と、通信ネットワークインタフェーサ119を設け、計算処理部10で実行されるソフトウェア命令により起動された後は、全てハードウェアにより、計算処理部10とは独立に、大域的な通信処理が以下に説明するハードウェア爆機1つで実行される

6

る。

【0030】「ハードウェア機構1」:バイナリーツリーによる通信先の決定と、送受信を制御する機構として、プロセッサエレメントの論理アドレスのを設定するレジスタ(R1) 110と、バイナリーツリーによる通信処理の定形化に関与する全プロセッサエレメントの数のを設定するレジスタ(R2) 111と、主記憶装置 12 上のデータ、即ち、ローカルデータ⑤を格納しておくレジスタ(R3) 112,及び、バッファ(BUF) 116 と、ローカルデータのデータ長⑥を格納しておくレジスタ(R5) 120と、通信 10ネットワーク 3からの通信データ⑤を格納するレジスタ(R3) 113,及び、バッファ(BUF) 117 と、現在の通信処理が、上記バイナリーツリーによる通信処理における第何回目の通信処理であるか、即ち、シーケンス番号②を指示して、所定の制御信号を出力するコントロールシーケンサ 118とを通信処理部 11 内に設ける。

【0031】コントロールシーケンサ 118は、レジスタ (R1) 110にあるプロセッサエレメントアドレス①,及び、レジスタ(R2) 111に設定されている全プロセッサエレメントの数②をもとに通信処理を制御する。

【0032】バイナリーツリーによる通信先の決定方法を図2示す。図2から明らかなように、バイナリーツリーによる通信処理では、例えば、奇数番号のプロセッサエレメント(PE1,PE3,PE5,~)1では、通信ネットワーク3から通信データ②を受信して、予め、定められている演算処理(OPRで示す)を実行するか、更に、実行した演算結果を、1つ、又は、2つ、又は、4つ若番のプロセッサエレメント(PEj)1に転送するかに定形化されており、どの通信処理を行うかは、上記バイナリーツリーの第何番目の通信であるか、即ち、上記シーケンス番号30②によって決まっている。

【0033】例えば、プロセッサエレメント(PE1)1は、データを受信して、所定の演算を繰り返すのみであるが、プロセッサエレメント(PE3,PE7,~)1では、第1回目の通信処理で、演算処理を行い、演算結果を他のプロセッサエレメント(PE5,~)1では、第1回目の通信処理では演算処理のみであり、第2回目の通信処理では、演算した結果を他のプロセッサエレメント(PE1)1に送信するといったように、プロセッサエレメント(PE1)1のプロセッサエレメントアドレス(番号)①と、第何回目の通信処理であるかを示すシーケンス番号②により、通信処理の内容が定形化されている。

【0034】又、偶数番号のプロセッサエレメント(PE 2,PE4,  $\sim$ ) 1 では、自己の持っているデータ (即ち、ホストから配分されているローカルデータ) ⑤を他のプロセッサエレメント(PE1,PE3,  $\sim$ ) 1 に送信するのみである。

【0035】そこで、本発明においては、上記レジスタ ータ長用のレジスタ(R5) 120を参照して、バッファ(BU (R1) 110に設定されている自己のプロセッサエレメント 50 F) 116 にあるローカルデータ50の最後尾に追加して書

アドレス (プロセッサエレメント番号) ①と、レジスタ (R2)111に設定されている、バイナリーツリーの全体の 構成を決定する全プロセッサエレメントの数②と、該バイナリーツリーによる通信処理において、第何回目の通信処理であるかを指示するコントロールシーケンサ 118 のシーケンス番号②とによって、自己の処理する通信処理の形態を決定する。

【0036】「ハードウェア機構2」: 上記ハードウェア機構1の制御により動作する浮動小数点加算器(FLOAT) 114、整数加算器(INT) 115、又は、演算処理時にアクセスされる、前述のレジスタ(R3) 112, レジスタ(R4) 113, レジスタ(R5) 120、及び、バッファ(BUF) 116, 117を通信処理部 11 に設ける。

【0037】上記レジスタ(R4) 113,及びバッファ(BU F) 117 は、通信ネットワーク 3から直接通信データ を受け取り、又、通信ネットワーク 3へ直接、ホストから配分されているローカルデータ (TOMT) 114、整数加算器(INT) 115 での演算結果データを通信ネットワーク 3に送出させる。これらのハードウェア機構は、次の実施例のように動作して大域的処理を行う。

【0038】「段階1」: 計算処理部 10 で実行される ソフトウェア、例えば、前述の通信ライブラリの指示に より、上記「ハードウェア機構1」が動作を開始する。 この時、ソフトウェアからプロセッサエレメントの論理 アドレスのを受け取り、上記レジスタ(R1) 110に設定する。又、ソフトウェアから大域的処理を行う対象であるローカルデータのを、前述の大域的処理a)、b)、c)の場合は、ローカルデータ用のレジスタ(R3) 112に

c) の場合は、ローカルデータ用のレジスタ(R3) 112に 受け取り、大域的処理d) の場合は、バッファ(BUF) 11 6 に受け取る。又、前述の大域的処理d) の場合は、ローカルデータの長さ⑤を、データ長用のレジスタ(R5) 1 20に受け取る。

【0039】「段階2」:演算を担当するプロセッサエレメント(PEi) 1 は、バイナリッリーアルゴリズムに従って、他のプロセッサ演算(PEj) 1 から通信データ③を受信し、次の処理を行う。

【0040】1)大域的処理a)、b)、c) {大小比較,論理和,排他的論理和,論理演算等}の場合、レジスタ(R3) 112にあるローカルデータ⑤と、通信ネットワーク3から転送され、レジスタ(R4) 113に格納されている通信データ⑤との間で、それぞれの演算を行い、結果は、バイナリツリーアルゴリズムに従って、ローカルデータ用レジスタ(R3) 112に格納するか、又は、他のプロセッサエレメント(PEj) 1 に送信する。

【0041】2) 大域的処理d) {合同、即ち、データの結合} の場合、ネットワーク 3から転送され、バッファ(BUF) 117 に格納されている通信データ⑤を、上記データ長用のレジスタ(R5) 120を参照して、バッファ(BUF) 116 にあるローカルデータ⑤の最後屋に追加して集

き込み、合計したデータ長を、上記データ長用のレジス タ(R5) 120に書き込む。

【0042】上記「段階1,2」での処理をバイナリー ツリーが収束するまで繰り返す。

「段階3」:バイナリーツリーの頂点に立つプロセッサ エレメント (例えば、図1に示したバイナリーツリー構 成では、PE1) 1は、最終結果を他の全てのプロセッサエ レメントに放送し、次の処理に備える。

【0043】このように、本発明においては、並列計算 機における通信処理回路において、プロセッサエレメン 10 ト内に、計算処理部とは別に、プロセッサエレメントの 論理アドレスΦと、全プロセッサエレメントの数**Φ**と、 ローカルデータ⑤と、通信データ③とを格納するレジス タ、バッファと、各種の演算器と、通信制御を行うコン トロールシーケンサとからなる通信処理部を設け、計算 処理部で実行されるソフトウェアからの指示で、上記レ ジスタにプロセッサエレメントの論理アドレスの、プロ セッサエレメントの数②を設定した後、該設定された論 理アドレスのと、プロセッサエレメント数のと、第何回 目の通信であるかを指示しているコントロールシーケン 20 サのシーケンス番号回とで定まるバイナリーツリー方法 による大域的な通信処理 (データの送信、又は、データ 受信、演算、又は、演算結果の送信)を、選択的に、計 算処理部 (本体部) での動作とは独立に実行するように 構成したところに特徴がある。

#### [0044]

【発明の効果】以上、詳細に説明したように、本発明の 並列計算機における通信処理回路によれば、汎用的なメ ッセージパッシング (メッセージの受け渡し) の通信ソ フトウェアを多数回実行することによるオーバーヘッド を避けることができ、又、定形的処理である、バイナリ ツリーアルゴリズムをハードウェア機構で実行すること により、プロセッサエレメント(PE1, PE2, ~) の他の入 出力やメモリアクセスと競合せずに、演算処理の制御を米 \* 行わせることができ、また通信ネットワークからの通信 データ③をプロセッサエレメント(PE1, PE2, ~) の計算 処理部 (本体部)へ移動せずに済むため、処理が高速化 できる。この結果、複合通信処理の時間を短縮でき、全 プロセッサエレメントの稼動率を向上させることができ る効果がある。

#### 【図面の簡単な説明】

【図1】本発明の一実施例を模式的に示した図

【図2】バイナリーツリーによる大域的処理を説明する

【図3】並列計算機での従来の通信処理方法を説明する 図

#### 【符号の説明】

- プロセッサエレメント(PE1,PE2,~) 1
- 計算処理部 (本体部) 10 11
- 通信処理部 レジスタ(R1) レジスタ(R 110 111
- 2)
- レジスタ(R3) 113 112 レジスタ(R
- 4)
- 114 浮動小数点加算器(FLOAT)
  - 整数加算器(INT) 115 116,117 バッ

ファ(BUF)

- 118 コントロールシーケンサ
- 通信ネットワークインタフェーサ 119
- 120 レジスタ(R5)
- 分散型メモリ (主記憶装置) 3 通信ネット 12 ワーク
- Φ プロセッサエレメントアドレス (プロセッサエレ メントの番号)
- 30 2 プロセッサエレメントの数
  - 通信データ (3)
  - ④ シーケンス番号
  - ග ローカルデータ
  - 6 ローカルデータ (データ長)

【図2】

#### バイナリーツリーによる大域的処理を説明する図



【図1】 本発明の一実施例を模式的に示した図



【図3】 並列計算機での従来の通信処理方法を説明する図





(b)